13. MDP(第 1 部分)
MDP(第 1 部分)
通常,状态空间 \mathcal{S} 是指所有非终止状态集合。
在连续性任务(例如在视频中介绍的回收任务)中,就相当于所有状态集合。
在阶段性任务中,我们使用 \mathcal{S}^+ 表示所有状态(包括终止状态)集合
动作空间 \mathcal{A} 是指智能体可以采取的动作集合。
如果在某些状态下,只能采取部分动作,我们还可以使用 \mathcal{A}(s) 表示在状态 s\in\mathcal{S} 下可以采取的动作集合。